📋 Чек-лист перед запуском ML-задачи через `sbatch`Ваш минимальный набор проверок

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📋 Чек-лист перед запуском ML-задачи через `sbatch`

Ваш минимальный набор проверок, чтобы не тратить GPU впустую и не ловить баги на 3-й час обучения:

✅

Подготовка скрипта run_job.sh:
➡️ Указано имя задачи через

 #SBATCH --job-name=...

➡️ Настроены логи:

 --output=logs/%x_%j.out, --error=logs/%x_%j.err

➡️ Выбран нужный раздел: --partition=ml (или подходящий)

➡️ Указано количество ресурсов:

 --cpus-per-task=..., --mem=..., --gres=gpu:1

➡️ Прописан тайм-аут: --time=HH:MM:SS — не забудьте!

✅

Среда и окружение:
➡️ Загружается нужный модуль (module load ...) или активируется conda

➡️ Все зависимости перечислены в requirements.txt или

 environment.yaml

➡️ Проверен путь к train.py и конфигам — абсолютный или относительный

✅

Код:
➡️ Прописан фиксированный random seed (в reproducibility мы верим)

➡️ Есть логирование (хотя бы print/logging/wandb/MLflow)

➡️ Код протестирован локально или через srun с малым объемом данных

✅

Безопасность и этика:
➡️ Нет утечки чувствительных данных

➡️ Модель прошла базовую проверку на адекватность и непредвзятость

✅

Финальное:
➡️ Скрипт запускается через:

 sbatch run_job.sh

➡️ Вы проверяете статус:

 squeue -u $USER

➡️ При ошибке используете: scancel <jobid>

✅ Если всё отмечено — можно запускать!

🙅‍♂️ Если хотя бы одно «нет» — лучше потратить ещё 5 минут, чем 5 часов GPU-времени впустую.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tg-me.com/hk/Библиотека data scientist’а | Data Science Machine learning анализ данных машинное обучение/com.dsproglib/6425

1.9K viewsedited May 8 at 07:17

tg-me.com/dsproglib/6425

Create: 2025-05-08
Last Update: 2025-05-30 11:54:35

📋 Чек-лист перед запуском ML-задачи через `sbatch`

Ваш минимальный набор проверок, чтобы не тратить GPU впустую и не ловить баги на 3-й час обучения:

✅ Подготовка скрипта run_job.sh:
➡️ Указано имя задачи через#SBATCH --job-name=...➡️ Настроены логи:--output=logs/%x_%j.out, --error=logs/%x_%j.err➡️ Выбран нужный раздел: --partition=ml (или подходящий)

➡️ Указано количество ресурсов:--cpus-per-task=..., --mem=..., --gres=gpu:1➡️ Прописан тайм-аут: --time=HH:MM:SS — не забудьте!

✅ Среда и окружение:
➡️ Загружается нужный модуль (module load ...) или активируется conda
➡️ Все зависимости перечислены в requirements.txt илиenvironment.yaml➡️ Проверен путь к train.py и конфигам — абсолютный или относительный

✅ Код:
➡️ Прописан фиксированный random seed (в reproducibility мы верим)

➡️ Есть логирование (хотя бы print/logging/wandb/MLflow)

➡️ Код протестирован локально или через srun с малым объемом данных

✅ Безопасность и этика:
➡️ Нет утечки чувствительных данных

➡️ Модель прошла базовую проверку на адекватность и непредвзятость

✅ Финальное:
➡️ Скрипт запускается через:sbatch run_job.sh➡️ Вы проверяете статус:squeue -u $USER➡️ При ошибке используете: scancel <jobid>

✅ Если всё отмечено — можно запускать!

🙅‍♂️ Если хотя бы одно «нет» — лучше потратить ещё 5 минут, чем 5 часов GPU-времени впустую.

Библиотека дата-сайентиста #буст

Библиотека data scientist’а | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

📋 Чек-лист перед запуском ML-задачи через `sbatch`Ваш минимальный набор проверок